CÓDIGO DE CONDUCTA PROFESIONAL EN CIENCIA DE DATOS
Código de conducta profesional de la Asociación de ciencia de datos
Terminología del código
Regla 1 - Terminología
(a) "Datos" significa un registro tangible o electrónico de información cruda (fáctica o no fáctica) (como mediciones, estadísticas o información en forma numérica que puede transmitirse o procesarse digitalmente) utilizada como base para el razonamiento, discusión o cálculo y debe ser procesado o analizado para que sea significativo.
(b) "Ciencia de datos" significa el estudio científico de la creación, validación y transformación de datos para crear significado.
(c) "Científico de datos" significa un profesional que utiliza métodos científicos para liberar y crear significado a partir de datos sin procesar.
(d) "Calidad de los datos" significa calificar la veracidad de los datos.
(e) "Volumen de datos" significa una medida de la cantidad de datos.
(f) "Variedad de Datos" significa los diferentes tipos (escritos, numéricos, sensores...etc) y estructuras (estructuradas, no estructuradas, semiestructuradas) de datos.
(g) "Velocidad de los datos" significa la velocidad medible a la que se recopilan, almacenan, analizan y consumen los datos.
(h) "Big Data" significa grandes conjuntos de datos que tienen propiedades diferentes de los pequeños conjuntos de datos y requieren métodos especiales de ciencia de datos para diferenciar la señal del ruido para extraer significado y requieren sistemas de computación y potencia especiales.
(i) "Señal" significa una interpretación significativa de datos basada en la ciencia que puede transformarse en evidencia y conocimiento científicos.
(j) "Ruido" significa una interpretación competitiva de datos no basados en ciencia que no pueden considerarse evidencia científica. Sin embargo, el ruido puede manipularse para convertirlo en una forma de conocimiento (lo que no funciona).
(k) "Conocimiento" significa información respaldada por evidencia científica que crea significado.
(l) "Aprendizaje automático" significa el campo de estudio que brinda a las computadoras la capacidad de aprender sin ser programadas explícitamente.
(m) "Algoritmo" significa un proceso o conjunto de reglas a seguir en cálculos u otras operaciones de resolución de problemas para lograr una meta, especialmente una regla o procedimiento matemático utilizado para calcular un resultado deseado, producir la respuesta a una pregunta o la solución a un problema en un número finito de pasos.
(n) "Minería de datos" significa el uso de capacidades sofisticadas de búsqueda de datos y algoritmos estadísticos para descubrir patrones y correlaciones en conjuntos de datos para descubrir nuevos significados en los datos.
(o) "Estadística" significa la práctica o ciencia de recopilar y analizar datos numéricos en grandes cantidades.
(p) "Estadísticamente Significativo" significa una evaluación estadística de si las observaciones reflejan un patrón en lugar de simplemente una casualidad y pueden o no ser significativas.
(q) "Correlación" significa cualquiera de una clase amplia de relaciones estadísticas que implican dependencia.
(r) "Correlación espuria" significa una correlación entre dos variables que no resulta de ninguna relación directa entre ellas sino de su relación con otras variables.
(s) "Causación" significa la relación entre causa y efecto respaldada por evidencia científica (por ejemplo, relación entre un evento (la causa) y un segundo evento (el efecto), donde el segundo evento se entiende como consecuencia del primero).
(t) "Heurística" significa reglas generales simples para ayudar en la toma de decisiones o la resolución de problemas mediante métodos experimentales y especialmente de prueba y error y la evaluación de la retroalimentación para mejorar el desempeño. Reglas generales sencillas y prácticas, fáciles de aplicar, que simplifican la vida. Estos son necesarios (no tenemos poderes mentales para absorber toda la información y tendemos a confundirnos con los detalles) pero nos causan problemas porque no sabemos que los estamos usando al formarnos juicios.
(u) "Variable" significa un valor que puede cambiar dentro del alcance de un problema o conjunto de operaciones determinado y puede ser independiente o dependiente.
(v) "Selección selectiva" significa señalar casos o datos individuales que parecen confirmar una posición particular, ignorando al mismo tiempo una porción importante de casos o datos relacionados que pueden contradecir esa posición y constituir fraude científico, supresión de evidencia o falacia de evidencia incompleta.
(w) "La correlación no implica causalidad" es una frase utilizada en ciencia y estadística para enfatizar que una correlación entre dos variables no implica necesariamente que una cause la otra.
(x) "Sustancial" cuando se usa en referencia a grado o extensión significa una cuestión material de importancia clara y importante.
(y) "Análisis predictivo" significa el uso de técnicas de estadística, modelado, aprendizaje automático y extracción de datos que analizan hechos actuales e históricos para ayudar a simular la toma de decisiones basada en escenarios y hacer predicciones especulativas, racionalistas y probabilísticas sobre eventos futuros (por ejemplo, utilizadas en análisis actuariales). ciencia, marketing, servicios financieros, calificación crediticia, seguros, telecomunicaciones, comercio minorista, viajes, atención sanitaria, productos farmacéuticos y otros campos).
(z) "Enfoque no predictivo" significa diseñar y construir cosas de una manera que no dependa de perturbaciones y, por lo tanto, sea duradera y robusta en cambios en resultados futuros.
(aa) "Falacia lúdica" significa confundir el complejo mundo ecológico real con los problemas bien planteados de las matemáticas y los experimentos de laboratorio.
(bb) "Iatrogénico" significa daño causado por el sanador, como si el médico hiciera más daño que bien. Iatrogenia generalizada: Por extensión, se aplica a los efectos secundarios de científicos de datos, formuladores de políticas, investigadores y académicos.
(cc) "Intervencionismo ingenuo" significa intervención sin tener en cuenta los iatrogénicos. La preferencia, incluso la obligación, de “hacer algo” antes que no hacer nada. Si bien este instinto puede resultar beneficioso en salas de urgencia o entornos ancestrales, duele en otros en los que existe un “problema de experto”.
(dd) "Racionalismo ingenuo" significa pensar que las razones de las cosas son, por defecto, accesibles para usted.
(ee) “Información confidencial” significa información que usted crea, desarrolla, recibe, usa o aprende en el curso de su empleo como científico de datos para un cliente, ya sea trabajando directamente internamente como empleado de una organización o como profesional independiente. . Incluye información que generalmente el público no conoce sobre el cliente, incluidos afiliados del cliente, empleados, clientes u otras partes con quienes el cliente tiene una relación y que tienen una expectativa de confidencialidad.
(ff) “Problema de agencia” significa riesgo moral y conflicto de intereses que pueden surgir en cualquier relación en la que se espera que una parte actúe en beneficio de la otra. El problema es que el agente que se supone debe tomar las decisiones que mejor sirvan al principal está naturalmente motivado por el interés propio, y los mejores intereses del agente pueden diferir de los mejores intereses del principal. Las dos partes tienen intereses diferentes e información asimétrica (el agente tiene más información), de modo que el principal no puede garantizar directamente que el agente siempre actúe en su mejor interés (el del principal), particularmente cuando las actividades que son útiles para el principal son costosas. al agente, y donde elementos de lo que hace el agente son costosos de observar para el principal. Los agentes pueden ocultar riesgos y estructurar relaciones de modo que, cuando tienen razón, obtienen grandes beneficios; cuando se equivocan, otros pagan el precio. Estos también afectan a políticos y académicos.
(gg) “Gestión de riesgos Hammurabi” significa que un constructor tiene más conocimientos que el inspector y puede ocultar riesgos en los cimientos.
(hh) “Inversión ética” significa adaptar la propia ética a las acciones (o profesión) y no al revés.
(ii) “Problema de Protágoras” significa involucrarse en supuestos “si” que, en consecuencia, distorsionan y llamarlos “ciencia” y “evidencia”. La clave es la sinceridad en las suposiciones.
(jj) “Falacia narrativa” significa nuestra necesidad de adaptar una historia o patrón a una serie de hechos conectados o desconectados. La aplicación estadística es la minería de datos.
kk) La “disciplina narrativa” es una disciplina que consiste en adaptar una historia convincente y sonora al pasado. Opuesto a la disciplina experimental. En medicina, los estudios epidemiológicos tienden a verse empañados por la falacia narrativa, y menos por los experimentos controlados. Los experimentos controlados son más rigurosos y no requieren selección selectiva.
(ll) “Opcionalidad racional” significa no estar encerrado en un programa determinado, de modo que uno pueda cambiar de opinión sobre la marcha.
(mm) “Conocimiento sustractivo” significa que sabes lo que está mal con más certeza que cualquier otra cosa. Una aplicación de la vía negativa.
(nn) “Via negativa” es el enfoque en lo que algo no es, una definición indirecta. En acción, es una receta de qué evitar, qué no hacer: resta, no suma, por ejemplo, en medicina.
(oo) “Profecía sustractiva” significa predecir el futuro eliminando lo que es frágil de él, en lugar de agregarle ingenuamente. Una aplicación de la vía negativa.
(pp) El “pensamiento Thalesiano” se centra en la exposición, la recompensa de la decisión.
(qq) El “pensamiento aristotélico” se centra en la lógica, la distinción Verdadero-Falso.
(rr) “Neomanía” es el amor al cambio por sí mismo y pronostica el futuro sumando, no restando.
(ss) “Opacidad” significa el estado o cualidad de ser opaco (no transparente o difícil de entender). Algunas cosas siguen siendo opacas para nosotros, lo que nos lleva a ilusiones de comprensión.
(tt) “Mediocristán” es un proceso dominado por los mediocres, con pocos éxitos o fracasos extremos (digamos, los ingresos de un dentista). Ninguna observación por sí sola puede afectar significativamente al conjunto. También llamada distribución de “cola delgada” o miembro de la familia de distribuciones gaussianas.
(uu) “Extremistán” es una provincia donde es posible que el total se vea afectado por una sola observación. También llamado “de cola gorda”. Incluye la familia de distribuciones fractales o de ley de potencia.
(vv) "Escrito" o "escrito" denota un registro tangible o electrónico de una comunicación o representación, incluida la escritura a mano, mecanografiada, impresa, fotocopiada, fotografía, grabación de audio o video y comunicaciones electrónicas. Un escrito "firmado" incluye un sonido, símbolo o proceso electrónico adjunto o asociado lógicamente con un escrito y ejecutado o adoptado por una persona con la intención de firmar el escrito.
(ww) "Creencia" o "cree" denota que la persona involucrada realmente supuso que el hecho en cuestión era cierto. La creencia de una persona puede inferirse de las circunstancias.
(xx) "Fraude" o "fraudulento" denota una conducta que es fraudulenta según el derecho sustantivo o procesal de la jurisdicción aplicable y tiene el propósito de engañar.
(yy) "Consentimiento informado" denota el acuerdo de una persona con un curso de conducta propuesto después de que el científico de datos haya comunicado información y explicaciones adecuadas sobre los riesgos materiales y las alternativas razonablemente disponibles al curso de conducta propuesto.
(zz) “Método científico” significa un método de investigación en el que se identifica un problema, se recopilan datos relevantes, se formula una hipótesis a partir de estos datos y la hipótesis se prueba empíricamente. El método de ciencia de datos consta de los siguientes pasos:
(1) Observaciones cuidadosas de datos, conjuntos de datos y relaciones entre datos.
(2) Deducción de significado a partir de los datos y diferentes relaciones de datos.
(3) Formación de hipótesis.
(4) Pruebas experimentales u observacionales de la validez de las hipótesis. Para ser considerado científico, un método de investigación debe basarse en evidencia empírica y mensurable sujeta a principios de razonamiento específicos.
(aaa) "A sabiendas", "conocido" o "sabe" denota conocimiento real del hecho en cuestión. El conocimiento de una persona puede inferirse de las circunstancias.
(bbb) "Razonable" o "razonablemente" cuando se utiliza en relación con la conducta de un científico de datos denota la conducta de un científico de datos razonablemente prudente y competente.
(ccc) "Creencia razonable" o "cree razonablemente" cuando se usa en referencia a un científico de datos denota que el científico de datos cree en el asunto en cuestión y que las circunstancias son tales que la creencia es razonable.
(ddd) "Razonablemente debería saber" cuando se utiliza en referencia a un científico de datos denota que un científico de datos con prudencia y competencia razonables determinaría el asunto en cuestión.
Científico de datos - Relación con el cliente
Regla 2 - Competencia
Un científico de datos deberá proporcionar servicios profesionales competentes en ciencia de datos a un cliente. Los servicios profesionales de ciencia de datos competentes requieren el conocimiento, la habilidad, la minuciosidad y la preparación razonablemente necesarios para los servicios.
Regla 3: Alcance de los servicios profesionales de ciencia de datos entre el cliente y el científico de datos
(a) Sujeto a los párrafos (b), un científico de datos deberá cumplir con las decisiones de un cliente con respecto a los objetivos de los servicios y deberá consultar con el cliente sobre los medios por los cuales se deben lograr. Un científico de datos puede tomar medidas en nombre del cliente que estén implícitamente autorizados para llevar a cabo servicios profesionales de ciencia de datos.
(b) Un científico de datos no aconsejará a un cliente que participe o ayude a un cliente en una conducta que el científico de datos sepa que es criminal o fraudulenta, pero un científico de datos puede discutir las consecuencias de cualquier curso de conducta propuesto con un cliente y puede asesorar o ayudar a un cliente a hacer un esfuerzo de buena fe para determinar la validez, alcance, significado o aplicación de la ciencia de datos proporcionada.
Regla 4 - Comunicación con los clientes
(a) Un científico de datos deberá:
(1) consultar razonablemente con el cliente sobre los medios por los cuales se deben lograr los objetivos del cliente;
(2) actuar con diligencia y prontitud razonables en la prestación de servicios;
(3) mantener al cliente razonablemente informado sobre el estado de los servicios de ciencia de datos;
(4) cumplir con prontitud con las solicitudes razonables de información;
(5) consultar con el cliente sobre cualquier riesgo real, percibido y potencialmente oculto al confiar en los resultados de la ciencia de datos; y
(6) consultar con el cliente sobre cualquier limitación relevante en la conducta del científico de datos cuando el científico de datos sepa que el cliente espera asistencia no permitida por el Código de Conducta Profesional u otra ley.
(b) Un científico de datos deberá explicar los resultados de la ciencia de datos en la medida razonablemente necesaria para permitir al cliente tomar decisiones informadas con respecto a la ciencia de datos.
Regla 5 - Información confidencial
(a) La información confidencial es información que el científico de datos crea, desarrolla, recibe, usa o aprende en el curso de su empleo como científico de datos para un cliente, ya sea trabajando directamente internamente como empleado de una organización o como profesional independiente. . Incluye información que generalmente el público no conoce sobre el cliente, incluidos afiliados del cliente, empleados, clientes u otras partes con quienes el cliente tiene una relación y que tienen una expectativa de confidencialidad. El científico de datos tiene el deber profesional de proteger toda la información confidencial, independientemente de su forma o formato, desde el momento de su creación o recepción hasta su disposición autorizada.
(b) La información confidencial es un activo valioso. Proteger esta información es fundamental para la reputación de integridad y relación de los científicos de datos con los clientes, y garantiza el cumplimiento de las leyes y regulaciones que rigen la industria del cliente.
(c) Un científico de datos deberá proteger toda la información confidencial, independientemente de su forma o formato, desde el momento de su creación o recepción hasta su disposición autorizada.
(d) Un científico de datos no revelará información relacionada con la representación de un cliente a menos que el cliente dé su consentimiento informado, la divulgación esté implícitamente autorizada para llevar a cabo la representación o la divulgación esté permitida por el párrafo (e).
(e) Un científico de datos puede revelar información relacionada con la representación de un cliente en la medida en que lo considere razonablemente necesario:
(1) para evitar una muerte razonablemente segura o daños corporales sustanciales;
(2) para evitar que el cliente cometa un delito o fraude que sea razonablemente seguro que resulte en un daño sustancial a los intereses financieros o la propiedad de otra persona y para cuyo fin el cliente ha utilizado o está utilizando los servicios del científico de datos.
(f) Un científico de datos deberá hacer esfuerzos razonables para evitar la divulgación inadvertida o no autorizada o el acceso no autorizado a información relacionada con la representación de un cliente, lo que significa:
(1) No exhibir, revisar o discutir información confidencial en lugares públicos, en presencia de terceros o que pueda ser escuchada;
(2) No enviar información confidencial por correo electrónico fuera de la organización o práctica profesional a una cuenta de correo electrónico personal o eliminar información confidencial del cliente eliminando copias impresas o copiándolas en cualquier tipo de dispositivo de medios digitales grabables; y
(3) Comunicar información confidencial únicamente a los empleados del cliente y a los agentes autorizados (como abogados o auditores externos) que tengan una razón comercial legítima para conocer la información.
(g) Un científico de datos deberá cumplir con las políticas del cliente que se aplican a la aceptación, el uso adecuado y el manejo de información confidencial, así como cualquier acuerdo escrito entre el científico de datos y el cliente relacionado con la información confidencial.
(h) Un científico de datos deberá proteger la información confidencial del cliente después de la terminación del trabajo para el cliente.
(i) Un científico de datos deberá devolver toda la información confidencial en posesión o control al finalizar la relación científico de datos - cliente y, si se le solicita, ejecutar una declaración jurada afirmando el cumplimiento de las obligaciones relacionadas con la información confidencial.
Regla 6 - Conflictos de intereses
(a) Salvo lo dispuesto en el párrafo (b), un científico de datos no deberá proporcionar servicios profesionales de ciencia de datos a un cliente si los servicios implican un conflicto de intereses concurrente. Existe un conflicto de intereses concurrente si:
(1) proporcionar servicios a un cliente será directamente adverso para otro cliente; o
(2) existe un riesgo significativo de que la prestación de servicios profesionales de ciencia de datos para uno o más clientes se vea materialmente limitada por las responsabilidades del científico de datos hacia otro cliente, un ex cliente o una tercera persona o por un interés personal del científico de datos.
(b) Independientemente de la existencia de un conflicto de intereses concurrente según el párrafo (a), un científico de datos puede representar a un cliente si:
(1) el científico de datos cree razonablemente que podrá proporcionar servicios competentes y diligentes a cada cliente afectado;
(2) los servicios profesionales de ciencia de datos no están prohibidos por ley; y
(3) cada cliente afectado da su consentimiento informado, confirmado por escrito.
Regla 7 - Deberes hacia el cliente potencial
(a) Una persona que consulta con un científico de datos sobre la posibilidad de formar una relación cliente-científico de datos con respecto a un asunto es un cliente potencial.
(b) Incluso cuando no se produzca una relación cliente-científico de datos, un científico de datos que haya obtenido información de un posible cliente no deberá utilizar ni revelar esa información.
(c) Un científico de datos sujeto al párrafo (b) no deberá proporcionar servicios profesionales de ciencia de datos para un cliente con intereses materialmente adversos a los de un cliente potencial en la misma industria o en una industria sustancialmente relacionada si el científico de datos recibió información del cliente potencial. que podría ser significativamente perjudicial para esa persona en el asunto, excepto lo dispuesto en el párrafo (d).
(d) Cuando el científico de datos haya recibido información descalificadora según se define en el párrafo (c), se permite proporcionar servicios profesionales de ciencia de datos si:
(1) tanto el cliente afectado como el cliente potencial han dado su consentimiento informado, confirmado por escrito, o:
(2) el científico de datos que recibió la información tomó medidas razonables para evitar la exposición a más información descalificadora de la que era razonablemente necesaria para determinar si debía proporcionar servicios profesionales de ciencia de datos para el cliente potencial; y se entrega prontamente una notificación por escrito al posible cliente.
Evidencia de ciencia de datos
Regla 8: Evidencia de ciencia de datos, calidad de los datos y calidad de la evidencia
(a) Un científico de datos deberá informar al cliente de todos los resultados de la ciencia de datos y hechos materiales conocidos por el científico de datos que le permitirán tomar decisiones informadas, ya sea que la evidencia de la ciencia de datos sea adversa o no.
(b) Un científico de datos calificará la calidad de los datos y divulgará dicha calificación al cliente para permitirle tomar decisiones informadas. El científico de datos comprende que la calidad de los datos mala o incierta puede comprometer la práctica profesional de la ciencia de datos y comunicar una realidad falsa o promover una ilusión de comprensión. El científico de datos deberá tomar medidas razonables para proteger al cliente de confiar y tomar decisiones basadas en una calidad de datos mala o incierta.
(c) Un científico de datos calificará la calidad de la evidencia y divulgará dicha calificación al cliente para permitirle tomar decisiones informadas. El científico de datos comprende que la evidencia puede ser débil, sólida o incierta y deberá tomar medidas razonables para proteger al cliente de confiar y tomar decisiones basadas en evidencia débil o incierta.
(d) Si un científico de datos cree razonablemente que un cliente está haciendo un mal uso de la ciencia de datos para comunicar una realidad falsa o promover una ilusión de comprensión, el científico de datos deberá tomar medidas correctivas razonables, incluida la divulgación al cliente y, si es necesario, la divulgación a las autoridades correspondientes. El científico de datos deberá tomar medidas razonables para persuadir al cliente de que utilice la ciencia de datos de manera adecuada.
(e) Si un científico de datos sabe que un cliente tiene la intención de participar, está participando o ha participado en una conducta delictiva o fraudulenta relacionada con la ciencia de datos proporcionada, el científico de datos deberá tomar medidas correctivas razonables, incluida, si es necesario, la divulgación a las autoridades adecuadas. autoridades.
(f) Un científico de datos no deberá, conscientemente:
(1) no utilizar métodos científicos al realizar la ciencia de datos;
(2) no calificar la calidad de la evidencia de manera razonable y comprensible para el cliente;
(3) afirmar que la evidencia débil o incierta es evidencia sólida;
(4) hacer mal uso de evidencia débil o incierta para comunicar una realidad falsa o promover una ilusión de comprensión;
(5) no clasificar la calidad de los datos de manera razonable y comprensible para el cliente;
(6) afirmar que la calidad de los datos mala o incierta es buena calidad de los datos;
(7) hacer un mal uso de la calidad de los datos, mala o incierta, para comunicar una realidad falsa o promover una ilusión de comprensión;
(8) no divulga todos y cada uno de los resultados de la ciencia de datos ni participa en una selección selectiva;
(9) no intentar replicar los resultados de la ciencia de datos;
(10) no revelan que los resultados de la ciencia de datos no se pudieron replicar;
(11) hacer un mal uso de los resultados de la ciencia de datos para comunicar una realidad falsa o promover una ilusión de comprensión;
(12) no revelar experimentos fallidos o pruebas que lo refuten que el científico de datos considere directamente adversas a la posición del cliente;
(13) ofrecen evidencia que el científico de datos sabe que es falsa. Si un científico de datos cuestiona la calidad de los datos o la evidencia, debe revelarlo al cliente. Si un científico de datos ha ofrecido evidencia material y llega a conocer su falsedad, deberá tomar medidas correctivas razonables, incluida la divulgación al cliente. Un científico de datos puede revelar y etiquetar evidencia que el científico de datos crea razonablemente que es falsa;
(14) seleccionar datos y evidencia científica de datos.
(g) Un científico de datos deberá utilizar una diligencia razonable al diseñar, crear e implementar algoritmos para evitar daños. El científico de datos deberá revelar al cliente cualquier riesgo real, percibido u oculto derivado del uso del algoritmo. Después de la divulgación completa, el cliente es responsable de tomar la decisión de utilizar o no el algoritmo. Si un científico de datos cree razonablemente que un algoritmo causará daño, deberá tomar medidas correctivas razonables, incluida la divulgación al cliente y, si es necesario, la divulgación a las autoridades correspondientes. El científico de datos deberá tomar medidas razonables para persuadir al cliente de que utilice el algoritmo de forma adecuada.
(h) Un científico de datos deberá utilizar una diligencia razonable al diseñar, crear e implementar sistemas de aprendizaje automático para evitar daños. El científico de datos deberá revelar al cliente cualquier riesgo real, percibido u oculto derivado del uso de un sistema de aprendizaje automático. Después de la divulgación completa, el cliente es responsable de tomar la decisión de utilizar o no el sistema de aprendizaje automático. Si un científico de datos cree razonablemente que el sistema de aprendizaje automático causará daño, deberá tomar medidas correctivas razonables, incluida la divulgación al cliente y, si es necesario, la divulgación a las autoridades correspondientes. El científico de datos deberá tomar medidas razonables para persuadir al cliente de que utilice el sistema de aprendizaje automático de forma adecuada.
(i) Un científico de datos deberá utilizar una diligencia razonable al asignar valor y significado a los siguientes conceptos al realizar ciencia de datos:
(1) "Estadísticamente significativo"
(2) "Correlación"
(3) "Correlación espuria"
(4) "Causalidad"
(j) Un científico de datos no deberá involucrarse en una "selección selectiva" (señalar casos o datos individuales que parezcan confirmar una posición particular, mientras ignora una parte significativa de casos o datos relacionados que pueden contradecir esa posición) cuando realiza ciencia de datos. El científico de datos comprende que participar en una "selección selectiva" puede constituir un fraude científico, suprimir evidencia o la falacia de evidencia incompleta.
(k) Un científico de datos no presentará evidencia incompleta como evidencia científica de datos real. Un científico de datos puede presentar una teoría que constituya evidencia incompleta, pero deberá etiquetar y comunicar claramente el uso de evidencia incompleta.
(l) Un científico de datos deberá utilizar una diligencia razonable para cuestionar las suposiciones y evitar involucrarse en suposiciones que, en consecuencia, las distorsionen y las llamen “ciencia” y “evidencia” (también conocido como el “Problema de Protágoras”).
(m) Un científico de datos deberá utilizar una diligencia razonable para reconocer, divulgar y tener en cuenta los "problemas de agencia" al realizar ciencia de datos. El científico de datos prudente comprende que los agentes pueden ocultar riesgos y estructurar relaciones de modo que, cuando tiene razón, obtiene grandes beneficios; cuando se equivoca, otros pagan el precio.
(n) Un científico de datos deberá utilizar una diligencia razonable para detectar, reconocer, revelar y factorizar riesgos reales, percibidos y potencialmente ocultos al utilizar la ciencia de datos. El científico de datos prudente comprende que los creadores de datos y los diseñadores y constructores de sistemas de gestión de datos tienen más conocimientos que el científico de datos y pueden ocultar riesgos en los fundamentos y las interpretaciones/sesgos de los datos sin procesar, creados y manipulados. El científico de datos deberá tomar medidas correctivas razonables, incluida la divulgación de los riesgos al cliente.
(o) Un científico de datos deberá utilizar el método de ciencia de datos que consta de los siguientes pasos:
(1) Observaciones cuidadosas de datos, conjuntos de datos y relaciones entre datos;
(2) Deducción de significado a partir de los datos y diferentes relaciones de datos;
(3) Formación de hipótesis;
(4) Pruebas experimentales u observacionales de la validez de las hipótesis. Para ser considerado científico, un método de investigación debe basarse en evidencia empírica y mensurable sujeta a principios de razonamiento específicos.
Mantener la integridad de la profesión de ciencia de datos
Regla 9 - Mala conducta
Es una mala conducta profesional que un científico de datos, a sabiendas:
(a) violar o intentar violar el Código de Conducta Profesional de Ciencia de Datos, ayudar o inducir a sabiendas a otro a hacerlo, o hacerlo a través de los actos de otro;
(b) cometer un acto delictivo relacionado con los servicios profesionales del científico de datos;
(c) participar en ciencia de datos que implique deshonestidad, fraude, engaño o tergiversación;
(d) participar en conductas que sean perjudiciales para los métodos de la ciencia;
(e) hacer un mal uso de los resultados de la ciencia de datos para comunicar una realidad falsa o promover una ilusión de comprensión.